大公司｜争夺应用场景，大厂各自定义「大模型」

Original 吴洋洋何昕晔新皮层NewNewThing 2023-08-02

收录于合集

#大公司 8 个

#WAIC 3 个

「大公司动态，只在需要关注时更新」

记者：吴洋洋何昕晔

编辑：陈锐

Key Points

微软已经开始从AI中赚钱；

阿里云的智能体初尝试；

华为决战底层数据和算法；

腾讯想要toB，但现有核心应用还是toC。

7月11日，毕马威（KPMG）与微软达成了一项协议，毕马威将使用微软的人工智能（AI）和云计算服务，预算是5年内20亿美元。相应地，这家全球四大会计师事务所之一希望，这笔投资能够为公司在未来5年内每年创造120亿美元的回报。按照其2022年的营收计算，相当于这批「AI员工」未来每年要为公司承担7%的业绩。

审计需要处理海量财务文件，这是诸多相关工种中相对标准化的工作之一 ——审查、总结并圈出其中的可疑之处，这正是生成式AI（AIGC）中的大语言模型（Large Language Models, LLMs）擅长的。而且，成熟的AI产品还会在其工作成果中给出每项结论的出处，方便人类检查。

自ChatGPT发布，「大模型」已开始从论文里的技术术语，变成人工智能公司的真实营收，尤其是同时具有AI模型和云计算能力的公司，比如微软。

中国的云计算公司也正在努力效仿这一商业模式。

在刚刚结束的上海2023世界人工智能大会（WAIC）上，阿里巴巴、华为、腾讯、百度等大公司都设台展示了他们的「大模型」，并解释想要攻占的应用场景，金融都是其中之一。

与此同时，当「大模型」一词被滥用，这场关于应用场景的同台竞技，也第一次让外界有机会分辨这些大公司分别在构建什么、更重视什么以及它们的战略差异和进度差异。

阿里云：智能体的初尝试

7月7日，阿里云在WAIC现场宣布推出文生图产品「通义万相」，成为继百度之后，国内技术大厂发布的第二个文生图产品（第一个是百度，它推出的同类产品为「文心一格」），同时也是继文生文产品「通义千问」（4月发布）和文转音产品「通义听悟」（6月发布）后，阿里云的第三款toC应用。

文生图产品「通义万相」。

在文生图产品后，阿里云CTO周靖人接着发布了旗下第一个智能体（AI Agent）——ModelScopeGPT。该智能体存在于阿里云的模型集中地「魔搭社区」，面向开发者群体，使开发者可以用自然语言与之交互。周靖人称，这一智能体理解开发者的任务需求后，可以自主拆解任务需求，寻找并对接到最适合的模型、数据及其接口。

「今天很多应用场景中的问题都不是单一模型能够解决的，需要多个模型。」周靖人在发布会后的群访中说，以语音生成为例，AI的实际工作分为几个阶段：第一步用语言模型生成创意文案，第二步用语音模型将文案转化为语音。视频生成同样如此，都需要几个AI合作。

阿里云试图用另一个AI——一个AI的包工头——来解决这一问题。在周靖人的描述中，ModelScopeGPT能够根据开发者的自然语言理解它要做的任务，之后，它会拆解这个任务，自动产生代码调用相应的模型（你可以把它理解为一个AI），并把结果给到另外一个模型（另一个AI）使用，如果某一任务有多个模型都可以完成，ModelScopeGPT还要能找到其中的最优模型并调用它。

AI智能体ModelScopeGPT。

阿里云所发布的智能体在全球并不是新鲜事物。OpenAI CEO山姆·奥特曼（Sam Altman）曾在多个场合声称「大模型的游戏已经结束，智能体才是未来」。图灵奖得主Hinton曾多次警告的AI灭绝人类风险，主要理由也是相应的智能体将日益具备分解复杂任务的能力，人类能控制总任务、总目标，不代表人类能控制这些AI智能体凭借自己智慧分解出来的子任务、子目标。

Altman也许言过其实——尤其在中国市场——不过OpenAI联合创始人Andrej Karpathy的说法正在被更多人接受。6月底，这位联合创始人在一个开发者活动上称：「5年前（2016年左右），当时的业界潮流就是研究如何用强化学习的方法来改进AI智能体……但现在有了全新的技术手段来研究AI智能体。」

Karpathy所说的全新技术手段就是大模型——无论大语言模型还是大视觉模型或者大生物模型，总之，就是基于Transformer的预训练模型。今年4月，浙江大学和微软就发布过一款大模型协作系统HuggingGPT，它能够连接HuggingFace社区中的各种AI模型，跨模态地解决开发者提出的任务需求，像一个模型管家或者遥控器一样工作。

「HuggingGPT是在它的模型生态（指HuggingFace）里，今天，ModelScopeGPT有我们自身的模型生态（指魔搭社区）……你问我们要不要引入第三方模型，回答是Absolutely Yes。」周靖人说。

目前，百川智能、智谱、IDEA等多个人工智能公司的模型都已加入阿里云的魔搭社区。根据规划，阿里云未来将不止ModelScopeGPT一个智能体，还将有一系列智能体推出。

阿里云不是国内唯一一家布局智能体的云计算公司。华为在该领域也有布局，不过更侧重「具身智能」（Embodied AI），即将大模型与机器人结合起来，它可能是人形机器人，也可能是其他形状（新皮层此前对WAIC的相关报道已提及）。

华为：决战底层数据和算法

阿里云在上海发布智能体ModelScopeGPT的同一天，华为也在深圳发布了其首款「具身智能」产品，短片演示显示：用户不需要输入程序性指令，只需要用自然语言向机器人下令，机器人就可以完成拿取物品等任务，过程中，机器人会根据所处环境作出自主判断（比如移开挡住目标物体的杂物），从而完成任务。华为称，该演示并非概念视频，而是来自真实产品。不过华为并未展示这款机器人的实体。

7月7日，除了在上海人工智能大会上参展，华为还在深圳举办了自己的开发者大会。发布上述「具身智能」产品之外，它在会上主要发布了其3.0版的大模型——盘古大模型3.0。

当天的宣讲中，盘古3.0被描述为一个包含「5+N+X」三层架构的大系统——5、N和X分别对应系统的L0、L1和L2层。其中，L0层是5个「基础大模型」：包括自然语言处理大模型、多模态大模型、数据大模型、预测大模型、科学计算大模型。这些模型包含从100亿到380亿、710亿、1000亿不等的参数，整体可以完成知识问答、文案生成、代码生成、图像生成、图像理解等任务。

基于华为大模型的「具身智能」机器人。

其L1层是N个「行业大模型」（目前为7个）：包括政务、金融、制造、药物分子、矿山、铁路和气象大模型。这些模型有的会使用到L0层的基础模型，比如政务、金融模型都会使用到L0层的自然语言处理模型；有的则基于非自然语言的其他类型数据直接训练。

比如药物分子大模型，它使用药物分子库中的数据做训练，学习病毒的靶向分子和药物分子之间的关系，预测对抗新病毒的新药分子。DeepMind旗下的蛋白质预测工具AlphaFold就是类似的生物预测工具，只不过它预测的是蛋白质分子，华为预测的是药物分子。

矿山大模型则其实是一种图像识别工具，主要用来识别传送带上的矿物是否符合标准。与传统图像识别（比如我们每个人都用过的人脸识别）技术不同，华为在新模型中使用的是基于Transformer的预训练模型，其优势是能够补全图像，从而使识别更清晰。特德·姜在那篇有名的关于GPT的评论中描述过这种现象，这类模型擅长的就是「通过两侧猜测中间」——无论对象是单词还是像素。

总之，不同大模型本质都是基于Transformer的预训练模型，但不同模型使用的训练数据并不相同。

如何构建训练数据的维度，成为模型构建的重要环节。这一点从华为的气象大模型可以看出。华为7月6日发表在《自然》（Nature）杂志上的文章称，其气象大模型在气象预测速度上比现行气象预测工具提高了10000倍以上，能够几秒钟给出预测结果。而在预测精度上，该模型甚至超过号称全球最强的欧洲气象中心的IFS（Integrated Forecasting System）系统，成为第一个AI预测赢过传统预测的模型。

「原有的AI气象预报模型都基于2D神经网络，无法很好地处理不均匀的3D气象数据；而且，传统AI方法缺少数学物理机理约束，因此在迭代的过程中会不断积累迭代误差。为此，团队提出了适应地球坐标系统的三维神经网络（3D Earth-Specific Transformer）来处理复杂的不均匀3D气象数据。」华为在其官网对上述论文成果的介绍中称，基于这种数据建模方式，华为向模型灌注了过往43年的全球天气数据。

在L0的基础模型和L1的行业模型之上，华为提供L2层的X个「场景模型」，比如政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等，这些模型都是L0和L1层模型在各细分领域的场景化解决方案，让客户可以「开箱即用」。客户如果想要定制，可以基于自有数据，在L0和 L1层上训练自己的专有大模型。如果想要联合创新，华为也在L2层开放更多的API接口支持。

腾讯：想要toB，但现有应用都是toC

一个月前，腾讯发布了「腾讯行业大模型」。这个没有专有名字的大模型其实是一系列模型的集合，既包括腾讯云研发的自有模型，也包括第三方模型公司开发的模型，比如百川智能。

腾讯一直避免对外解释这个行业大模型同「混元」的关系。只声称它是面向「包括金融，文旅，传媒，政府，零售等10多个行业在内的高质量大模型」，并称客户也「可以加入自己独有场景数据做精调」。

「混元」是腾讯对标GPT开发的大语言模型，而相应的对话产品在之前的媒体报道中被描述为「混元助手」。根据过往报道，今年2月，腾讯成立「混元助手」（HunyuanAide）项目组，计划推出类ChatGPT的对话产品。该项目组一号组员为拥有腾讯最高专业职级的张正友，早年就职于微软研究院，擅长计算机视觉。

《新皮层》在世界人工智能大会期间采访相关人士获悉，腾讯已发布的「行业大模型」中并不包含「混元」，至于混元何时开发完成，内部人士也未知。并且，「行业大模型」所属的腾讯优图团队由吴运声带领，吴运声同时也是腾讯云副总裁，「混元」大模型所属团队由张正友带领，后者同时也是腾讯AI Lab的负责人。而优图和AI Lab是腾讯旗下存在多年的不同AI实验室，过往研发重点分别侧重图像和自动驾驶。

也就是说，腾讯现已发布的「行业大模型」主要是腾讯云的产品，并非腾讯集团层面的代表产品。未来，腾讯可能将在某个时间点再推出一个新的大模型，即「混元」。

用于游戏场景的3D数字人。

WAIC展会期间，腾讯展台展示的一大应用是数字人，包括面向直播场景的真人数字人，和面向游戏、金融、政务场景的虚拟数字人，两者目前都只涉及图像大模型和音频大模型的应用，尚未涉及语言大模型。这两款数字人尚不能根据图片自主生成文字内容，也不能根据文字自主生成图像，只能根据个人形象采集生成对应数字形象，以及根据现有文字生成对应语音。

腾讯工作人员对《新皮层》称，未来「混元」推出后，不排除接入这样的生成式语言模型，让数字人有更大的发挥空间。

ChatGPT诞生后，几乎所有云计算公司的CEO都在将大模型定义为一种「Game Changer」。在各大厂内部，云计算团队也因此都比内部其他团队更为积极。不过，「现在是大模型与行业结合的初级阶段，底层技术也变化很快，现在下任何结论都过早。」吴运声在7月7日接受媒体群访时说。

总之，进入大模型时代，行业词汇越来越通胀，不过，泡沫之下，AI技术的分支也越来越多，大公司将重新面临选择。

-END-

我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。

和每一位关心技术、关注人类命运的读者一样，我们希望在这个充满不确定性的时代，更好地理解快速变化的科技世界，也更好地理解生而为「高级智能」的我们自己。

在这个目标下，我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意，我们说的智能，不只是 AI。

若想了解更多当日资讯，请点击阅读往期智能晚报

智能晚报｜富士康退出印度半导体计划；百川智能发布新款开源大模型；Google AR 团队高级总监离职。

若想了解头条新闻，请点击阅读往期

六月综述｜大模型的中期战事

与记者交流，可添加微信（请备注公司名称和姓名）：

王杰夫微信号: wjfsty

张司钰微信号: helianthus351

吴洋洋微信号: qitianjiuye

喜欢就关注我们吧，记得「设为星标」

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

大公司｜争夺应用场景，大厂各自定义「大模型」

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

生成图片，分享到微信朋友圈

大公司｜争夺应用场景，大厂各自定义「大模型」

您可能也对以下帖子感兴趣